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摘要 : [目的 ] 当 标注 数据 较 少 时 ， 现 有 模型 受训 练 数 据 量 少 的 限制 ， 参 数 没有 拟 合 到 预期 效果 ， 导 致 在 
低 资 源 命 名 实体 识别 任务 中 模型 识别 性 能 不 佳 。[ 方 法 ] 本 文 提 出 一 种 融入 伯 努 利 分 布 (Bernoulli distribution) 的 新 
型 损失 函数 ， 让 模型 较 好 拟 合 数据 。 此 外 ， 本 文 在 BiLSTM-CRE 模型 基础 上 融合 多 层 字符 特征 信息 ， 结 合 基 
于 伯 努 利 分 布 的 新 型 损失 函数 ， 构 建 了 BiLSTM-BCREF 模型 。[ 结 果 ] 本 文 提 出 的 BiLSTM-BCRF 模型 在 20% 的 
CoNLL2003 和 20% 的 BC5CDR 的 数据 集 上 ，F1 值 在 BiLSTM-CRF 模型 基础 上 分 别提 升 了 6.16%、3.35%。[ 结 
论 ] 该 模型 能 较 好 地 适应 低 资源 命名 实体 识别 任务 。[ 局 限 ] 该 模型 识别 专 有 名 词 的 性 能 还 有 待 提 升 。 
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Abstract: [Objective]when there are few labeled data, the existing models are limited by the amount of training 
data, and the parameters do not fit the expected effect, resulting in poor model recognition performance in the task of 
low resource named entity recognition. [Methods] a new loss function integrated with Bernoulli distribution is proposed 
to make the model fit the data better. In addition, based on the BiILSTM-CRF model, multi-layer character feature 
information is fused, and the new loss function based on Bernoulli distribution is combined to construct the BILSTM- 
BCRF model. [Results] Based on the dataset of 20% CONLL2003 and 20% BCS5CDR., the Fl value of the BILSTM- 
BCRF model proposed in this paper increased by 6.16% and 3.35% respectively. [Conclusion| the model can better 
adapt to the task of low resource named entity recognition. [Limitations] the performance of this model in identifying 
proper nouns needs to be improved 
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1 引言 

命名 实体 识别 是 自然 语言 处 理 的 基础 任务 之 一 ， 该 任务 由 在 从 非 结构 化 的 文本 中 自动 识别 出 
实体 ， 并 将 其 标记 为 预定 义 的 类 别 ， 例 如 和 人名、 地 名 和 组 织 机 构 名 等 。 例 如 ，“ 张 无 忌 ， 金 庸 武 
侠 小 说 《倚天 屠龙记 》 人 物 角 色 ， 中 十 明教 第 三 十 四 代 教 主 。” 这 句 话 包含 的 实体 有 : 人 名 实体 
“张无忌 ， 金 良 ”， 书 名 实体 “倚天 屠龙记 ”， 门 派 实体 “明教 ”。 由 此 可 见 , 实 体 识别 是 文本 
语义 理解 的 基础 。 同 时 命名 实体 识别 技术 在 知识 图 谱 构 建 、 机 器 翻译 、 知 识 库 构 建 等 多 种 自然 语 
言 处 理 任 务 中 有 着 广泛 应 用 。 

近 些 年 来 ， 深 度 学 习 方 法 被 广泛 用 于 命名 实体 识别 ， 如 HammertonD 将 长 短期 记忆 网 络 
(LSTM) 应 用 到 实体 识别 研究 中 ，LSTM-CRF 结构 成 为 实体 识别 的 基础 结构 。Lample 等 人 外 在 
LSTM-CRF 模型 的 基础 上 ， 提 出 双向 长 短期 记忆 网 络 (Bi-LSTM) 和 条 件 随机 场 (CRF) 结 合 的 模型 5 
51 等。 这 类 方法 虽然 在 文本 实体 识别 任务 中 表现 优异 ， 但 是 需要 大 规模 的 标注 数据 ， 对 训练 语 料 
中 每 个 词 进行 人 工 标注 。 在 标注 数据 不 足 的 情况 下 ， 现 有 模型 的 参数 不 能 较 好 拟 合 ， 导 致 模型 预 
测 最 大 概率 标签 并 不 一 定 是 真实 标签 ， 模 型 的 识别 性 能 下 降 ， 很 难 应 用 到 如 生物 、 医 学 这 些 标注 
语 料 较 少 的 领域 。 针 对 上 述 问题 ， 本 文 提 出 一 种 融入 伯 努 利 分 布 的 新 型 损失 函数 ,使 模型 参数 在 
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低 资 源 场景 下 能 较 好 拟 合 。 在 此 基础 上 ， 为 增加 模型 能 处 理 的 词汇 量 和 提升 模型 识别 罕见 词 的 能 
力 ， 本 文 在 BiLSTM-CRF 模型 基础 上 融合 多 层 字 符 特 征 信息 ,进一步 提升 了 模型 的 精确 率 和 召回 
率 


本 文 的 组 织 结构 为 : 第 二 节 介 绍 低 资 源 命 名 实体 识别 领域 的 主要 工作 。 第 三 节 介 绍 本 文 模型 ， 
包括 : 输入 层 、BiLSTM 层 和 BCRF 层 。 第 四 节 介 绍 实验 数据 、 实 验 内 容 、 实 验 结果 及 分 机 。 最 
后 对 本 文 工 作 进行 总 结 。 


2 相关 工作 


命名 实体 识别 的 研究 方法 主要 有 基于 规则 和 词典 方法 、 机 器 学 习 方 法 、 深 度 学 习 方 法 等 。 
基于 词典 和 规则 的 方法 过 多 依赖 于 语言 学 家 制定 的 规则 模板 ， 容 易 产 生 错 误 ， 移 植 性 差 。 传 统 机 
器 学 习 方 法 主要 包括 : 隐 马 尔 可 夫 模 型 (Hidden Markov Model,HMM)、 最 大 炉 (Maximum 
EntropyME)Ja 、 最 大 业 马 尔 可 夫 模 型 (Maximum Entropy Markov Model,MEMM)" 、 条 件 随机 场 
(Conditional Random Fields,CRF) 等 。 这 些 传统 的 机 器 学 习 方法 在 特征 提取 方面 需要 人 工 参 与 ， 
同时 需要 大 规模 的 标注 语 料 来 训练 模型 ， 方 法 的 性 能 主要 依赖 于 所 采用 的 特征 是 否 具 有 辨识 度 。 
其 中 CRF 被 看 作 是 命名 实体 识别 的 主流 模型 ,优点 在 于 在 对 一 个 位 置 进行 标注 的 过 程 中 CRF 可 以 
利用 内 部 及 上 下 文 特征 信息 。 随 着 深度 学 习 的 不 断 发 展 ,命名 实体 识别 的 研究 重点 已 转 癌 深层 神 
经 网 络 , Collobert 等 学 者 m 首 次 提出 基于 神经 网 络 的 命名 实体 识别 方法 ,该 方法 中 每 个 单词 具有 固 
定 大 小 的 窗口 ,但 未 能 考虑 长 尾 问 题 。 为 了 克服 这 一 限制 ,Chiu 和 Nicholsn 提 出 一 种 双向 LSTM- 
CNNs 架构 ,该 架构 可 自动 检测 单词 和 字符 级 别 的 特征 。Hammertoni 利 用 CRF 关注 上 下 文 特征 信 
息 的 特点 ， 提 出 LSTM-CRF 模型 。 

近 些 年 来 ,大 量 的 深度 学 习 方 法 被 应 用 于 低 资 源 命 名 实体 识别 任务 中 ， 低 资源 的 命名 实体 识别 
技术 成 为 当前 研究 热点 之 一 ， 其 性 能 的 提高 是 命名 实体 识别 技术 走向 广泛 实际 应 用 的 前 提 。 相 关 
研究 工作 可 大 致 分 为 以 下 几 类 :， 路 语言 迁移 的 方法 、 数 据 增 强 的 方法 、 集 成 自动 标注 语 料 的 方 
法 和 其 他 方法 。 

跨 语 言 迁 移 方法 的 基本 思路 是 利用 资源 丰富 语言 的 标注 数据 帮助 低 资 源 语言 进行 命名 实体 识 
别 ,可 大 致 分 为 数据 迁移 的 方法 和 模型 迁移 的 方法 两 大 类 。 基 于 数据 迁移 的 方法 通常 借助 文本 翻 
译 和 标签 映射 等 手段 把 源 语言 中 的 标注 数据 转换 成 目标 语言 的 标注 数据 ， 然 后 基于 这 些 数据 训练 
模型 。Ni 等 凸 提出 了 一 种 在 语料库 上 进行 标签 映射 的 方法 ， 用 于 创建 自动 标记 的 目标 语言 数据 。 
Mayhew 等 四 利用 双语 词典 ， 使 用 一 种 类 似 短语 机 器 翻译 号 的 方法 自动 翻译 源 语言 的 标注 文本 。 
基于 模型 迁移 的 方法 通常 先 学 习 语言 无 关 的 特征 ， 然 后 在 源 语言 的 标注 语 料 上 训练 NER 模型 直 
接 用 于 目标 语言 。Chen 等 吧 同 样 基于 对 抗 学 习 的 方法 提取 语言 无 关 的 特征 ， 并 动态 地 计算 源 语 
言 和 目标 语言 之 间 的 相似 度 ， 从 而 更 有 效 地 实现 从 多 个 源 语 言 到 目标 语言 的 知识 迁移 。Keung 等 
po 在 多 语言 版 本 BERT 的 基础 上 进一步 使 用 对 抗 学 习 p9 的 方法 ， 以 学 习 更 好 的 与 语言 无 关 的 特征 。 

数据 增强 方法 的 主要 目标 是 ,在 不 增加 人 工 标注 成 本 的 前 提 下 ,通过 增加 合理 的 噪声 来 提升 模 
型 的 鲁 棒 性 ， 在 少数 据 量 的 场景 下 对 模型 性 能 的 提升 有 很 大 帮助 。Dai 等 o0 引 入 了 一 些 词 蔡 换 的 
随机 操作 来 增加 训练 语 料 多 样 性 ;Chen 等 (9 在 半 监 督 NER 任务 中 引入 了 基于 局 部 可 加 性 的 数据 增 
强 。 基 于 语言 迁移 的 方法 和 数据 增强 的 方法 虽然 能 够 有 效 地 缓解 标注 语 料 短缺 的 问题 ， 但 是 具有 
丰富 标注 资源 的 语言 是 非常 少 的 。 为 此 ， 一 些 研究 者 提出 集成 自动 标注 语 料 的 方法 ， 首 先 通 过 某 
种 方法 自动 标注 大 量 语 料 ， 然 后 集成 它们 用 于 提高 低 资源 实体 识别 模型 的 性 能 。Yang 等 中 首先 
基于 词典 匹配 的 方法 自动 标注 语 料 ， 然 后 使 用 Partial-CRFP 在 少量 人 工 标注 的 语 料 和 大 量 自 动 标 
注 的 语 料 上 训练 实体 识别 模型 。 此 外 ， 他 们 还 基于 强化 学 习 串 训练 一 个 选择 器 ， 用 于 筛选 掉 具 有 
噪声 的 标注 数据 。 

除 上 述 三 类 方法 外 ， 低 资源 实体 识别 领域 还 有 其 他 方法 如 Zhang 提出 渐进 式 知 识 提炼 方法 
PDALNF2， 有 效 的 将 高 资源 域 适 应 于 低 资 源 目标 域 。Chen 提出 了 一 种 低 资 源 的 语言 模型 的 微调 
方法 中， 使 用 基于 注意 力 机 制 的 微调 集 略 ， 从 预 训练 的 语言 模型 中 选择 相关 的 语义 和 句法 信息 ， 
将 其 应 用 于 命名 实体 识别 任务 。 本 文 的 工作 主要 是 探索 低 资源 条 件 下 基于 深度 学 习 的 命名 实体 识 
别 方法 。 

3 模型 
3.1 基本 架构 


命名 实体 识别 任务 被 看 作 是 序列 标注 问题 。 输 入 句子 表示 为 ,其 中 表示 第 i 个 字符 (包括 数字 、 
单词 、 字 母 或 标点 符号 等 )。 输 出 标注 序列 为 ,其 中 E {B,M,E,S,0} 是 的 标签 ,B、M、E、S 和 OO 分 
别 代表 实体 首 字 ,实体 中 间 字 ,实体 结尾 字 , 实 体 单独 字 和 非 实体 。 命 名 实体 识别 就 是 对 每 个 字符 进 
行 B、M、E、S、O 的 分 类 标注 。 

本 文 在 BiLSTM-CRF 模型 损失 函数 中 融入 伯 努 利 分 布 ， 同 时 将 多 层 字符 信息 融合 到 
BiLSTM-CRF 模型 ， 构 建 了 BiLSTM-BCRF 模型 。BiLSTM-BCREF 模型 基本 结构 如 图 1 所 示 。 该 
模型 结构 主要 分 为 输入 层 、Bi-LSTM 层 和 BCRF 层 。 
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图 1 BiLSTM-BCRF 模型 基本 结构 
Figure 1 basic structure of BILSTM-BCRF model 
3.2 输入 层 
如 图 2 所 示 ， 该 图 为 模型 输入 层 的 结构 图 。 其 中 ，x 表示 词 向 量 ， 是 使 用 Pennington 等 人 提 
出 Glove 英文 词 向 量 中 文件 生成 的 ，;， 表示 由 BiLSTM 训练 生成 的 字符 向 量 ，。 最 后 将 词 向 量 与 
字符 向 量 拼接 输入 到 BiLSTM 层 。 


h e h EG 
图 2 模型 输入 层 基本 结构 图 


Fig. 2 basic structure of model input layer 


3.3 BiLSTM 层 

LSTM 神经 网 络 在 命名 实体 识别 任务 中 表现 出 恨 好 的 建 模 能 力 ， 能 较 好 的 学 习 文本 中 单词 与 
字符 的 特征 信息 ，BiLSTM 层 结构 主要 由 两 个 LSTM 组 合 而 成 。LSTM 的 网 络 结构 主要 分 三 个 阶 
段 : 遗忘 阶段 、 选 择 记忆 阶段 、 输 出 阶段 。LSTM 单元 结构 如 图 3 所 示 ， 分 别 表示 LSTM 单元 中 
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图 3 LSTM 单元 结构 图 
Figure 3 Structure 
diagram ofLSTM unit 


的 输入 门 、 遗 态 门 、 输 
态 。 表 示 在 tl 时 刻 的 
刻 的 细胞 记忆 状态 。o 
表示 双 曲 正切 激励 函数 ， 


出 门 在 t 时 刻 的 状 图 
隐藏 状态 ,表示 在 t 时 
表 示 Sigmoid，tanh 
如 式 () 一 式 (6) 所 示 : 


BiLSTM 神经 网 络 中 的 输出 隐藏 状态 ,分 别 为 前 向 输出 和 后 向 输出 。 
3.4 BCRF 层 

原 有 命名 实体 识别 模型 解码 层 主要 是 条 件 随机 场 (Conditional Random Field ，CRF)。CRF 是 
由 状态 特征 函数 和 状态 特征 转移 函数 组 成 ， 状 态 特征 函数 也 称 发 射 概率 ， 状 态 特 征 转移 函数 在 模 
型 中 可 以 用 一 个 状态 转移 矩阵 表示 ， 最 后 得 到 的 条 件 概 率 如 式 (7) 所 示 : 

(7) 
其 中 ， 是 x 和 y 一 组 特征 向 量 的 映射 。 表 示 模 型 在 给 定 文本 序列 x 条 件 下 得 到 标签 序列 y 

的 概率 。 损 失 函 数 计算 公式 如 式 (8) 所 示 : 


(8) 

CRF 方法 的 优点 是 可 以 进一步 考虑 序列 标签 的 依赖 关系 ， 同 时 在 训练 过 程 中 ， 采 用 Viterbi 

算法 用 于 最 大 似 然 估计 ， 使 模型 对 输入 文本 预测 出 标签 的 最 大 概率 如 式 (9) 所 示 : 
(9) 

其 中 ， 表 示 模 型 预测 标签 的 最 大 概率 。 但 是 在 低 资源 的 场景 下 ， 模 型 受 标注 数据 量 少 的 限制 ， 
参数 没有 拟 合 到 预期 效果 ， 输 出 预测 概率 最 大 的 标签 序列 并 不 一 定 是 真实 的 标签 序列 ， 导 致 模型 
最 后 的 识别 性 能 下 降 。 在 此 ， 本 文 借鉴 jie 等 人 号 在 不 完全 标注 实体 识别 任务 上 采用 交叉 验证 方 
式 训练 数据 的 思想 ， 将 伯 努 利 分 布 融 入 到 条 件 随 机 场 损 失 函 数 中 ， 构 建新 的 损失 函数 ， 对 应 的 解 
码 模 型 称 为 BCRF。 

伯 努 利 分 布 (Bernoulli distribution) 又 名 两 点 分 布 或 0-1 分 布 ， 它 是 指 对 于 随机 变量 X， 参 数 为 
P(0<P<1), 它 分 别 以 概率 P 了 和 1-P 取 1 和 0 为 值 ， 该 分 布 是 一 个 离散 型 概率 分 布 ， 是 N=1 时 二 项 分 
布 的 特使 情况 。 将 伯 努 利 分 布 函数 融入 到 CRF 中 ， 构 建新 的 损失 函数 如 式 (10) 所 示 : 


(10) 
在 原 有 的 损失 函数 计算 公式 加 入 一 个 分 布 函数 q， 计 算 公 式 如 式 (11) 所 示 。 分 布 函 数 gq 取 值 
为 0 或 1， 呈 伯 努 利 分 布 。 


(11) 
其 中 ， 表 示 模 型 预测 最 大 概率 的 标签 ， 表 示 真 实 标签 。 在 式 (10) 中 ， 当 句子 中 词 预 测 标签 与 真 
实 标签 一 致 时 ， 得 到 的 损失 值 也 就 较 小 。 那 么 相反 ， 如 果 在 一 个 句子 中 预测 标签 错误 的 越 多 ， 那 
么 它 的 损失 值 也 越 大 。 采 用 新 的 损失 函数 公式 计算 ， 在 训练 样本 只 有 少量 时 ， 模 型 参数 能 较 好 拟 
合 ， 提 升 模型 的 精确 率 和 召回 率 ， 最 后 提高 模型 的 识别 效果 。 
4 实验 


4.1 数据 集 及 评价 指标 

本 文选 择 CONLL2003RI 数 据 集 和 BCSCDRc 数据 集 来 证 明 所 提出 模型 的 有 效 性 。 
CONLL2003 数据 集 包 含 4 种 实体 类 型 以 及 英语 和 德语 两 种 语言 ，BC5CDR 数据 集 包 含 两 种 实体 
和 1500 篇 医药 文章 。 由 于 实体 识别 的 任务 主要 是 对 实体 的 边界 和 类 别 的 识别 ， 只 有 当 边 界 及 实 
体 的 类 别 都 识别 正确 时 ， 才 判断 正确 。 本 文通 过 使 用 精确 率 (Precisiom 和 和 召回 率 (RecalD) 来 求 得 Fl 
值 ， 用 于 衡量 该 模型 的 性 能 ， 如 式 (12) 式 (14) 所 示 : 


(12) 
(13) 
(14) 
其 中 N 表示 为 模型 所 预测 出 的 实体 总 数 ，M 表示 模型 预测 的 实体 中 正确 预测 实体 的 总 数 ，K 
表示 为 数据 集中 所 标注 的 实体 总 数 。 模 型 中 超 参数 设置 如 表 1 所 示 : 
表 1 超 参数 设置 
Table 1 super parameter setting 
隐 层 向 量 维 
50 
0. 
0. 
10 
10 


闻 向 最 维 度 
批 尺寸 
训练 轮 数 

4.2 实验 结果 与 分 析 


本 文 所 做 的 实验 采用 的 数据 集 主要 是 CONLL-2003 英语 数据 集 和 BC5CDR 专业 医学 领域 数据 集 ， 
BiLSTM-BCRF 模型 与 BiLSTM-CRF 模型 实验 结果 如 图 4、 图 5 所 示 : 


WI 
Lu 


图 4BC5CDR 数据 集 上 BiLSTM-BCRF 模型 与 BiLSTM-CRF 模型 实验 结果 对 比 
Fig. 4 Comparison of experimental results between BiLSTM-BCRF model and BiLSTM-CRF model on BCSCDR 
dataset 


5 CONLL2003 数据 集 上 BiLSTM-BCRF 模型 与 BiLSTM-CRF 模型 实验 结果 对 比 
Fig. 5$ Comparison of experimental results between BiLSTM-BCRF model and BiLSTM-CRF model on 
CONLL2003 dataset 


从 图 4、 图 5 中 可 以 看 出 该 模型 在 少量 标注 数据 集 上 的 性 能 是 高 于 BiLSTM-CRF 模型 ， 比 较 
适合 低 资源 领域 的 实体 识别 任务 。 同 时 该 模型 在 30% 的 CONLL2003 数据 集 上 Fl 值 达 到 了 
89.32%， 说 明 该 模型 在 不 需要 大 量 的 标注 语 料 的 情况 下 ， 也 能 取得 比较 好 的 识别 效果 。 

TMN 是 Lin 等 人 中 在 2020 年 提出 的 一 种 基于 实体 和 触发 词 标注 的 命名 实体 识别 模型 。 


BiLSTM-BCRF 模型 与 TMN 模型 实验 结果 对 比如 表 2、 表 3 所 示 。 
表 2 BiLSTM-BCRF 模型 与 TMN 模型 实验 结果 对 比 
Table 2 Comparison of experimental results between BiLSTM-BCRF model and TMN model 


20%CONLL2003 


TMN 86.04 85.98 86.01 


BiLSTM-BCRF 87.49 88.03 88.06 


如 表 2 所 示 ， 该 实验 是 在 20% 的 CONLL-2003 数据 集 上 进行 的 。 从 表 中 可 以 看 出 BiLSTM- 
BCRF 模型 Fl 值 是 是 高 于 TMN 模型 的 。 
表 3 BiLSTM-BCRF 模型 与 TMN 模型 实验 结果 对 比 
Table 3 Comparison of experimental results between BiLSTM-BCRF model and TMN model 


20%BCSCDR 
9 


BiLSTM-CRF 79.09 62.66 69.92 
TMN 77.47 70.47 73.97 
BiLSTM-BCRF 74.35 72.22 73.27 


如 表 3 所 示 ， 在 20% 的 BC5CDR 数据 集 上 ，BiLSTM-BCRF 模型 Fl 值 比 BiLSTM-CRF 模型 
高 3.35%， 比 TMN 模型 低 0.7%， 主 要 是 该 模型 识别 一 些 专 有 名 词 的 性 能 略 低 于 TMN 模型 。 但 
是 ，BiLSTM-BCRF 模型 并 不 需要 标注 触发 词 ， 它 所 需要 的 人 工 成 本 只 是 TMN 模型 的 3/4， 同 时 
BiLSTM-BCRF 模型 在 CONLL2003 数据 集 上 Fl 值 比 TMN 模型 高 2.05%。 当 然 ， 如 何 提高 
BiLSTM-BCRF 模型 识别 专 有 名 词 的 性 能 ， 也 是 本 文 后 续 工 作 的 重点 。 
4.3 词 与 多 层 字符 信息 的 融合 分 析 

在 3.2 节 中 本 文 提 出 如 图 2 所 示 的 模型 输入 层 结构 , 为 验证 在 模型 输入 层 哪 些 因 素 会 影响 模 
型 进行 命名 实体 识别 的 性 能 ， 本 文 进行 如 下 实验 : 
表 4 词 向 量 与 字符 向 量 拼接 顺序 对 模型 性 能 的 影响 

Table 4 explores the impact of word vector and character vector splicing order on model performance 


71.82 72.50 72.16 
71.23 73.07 72.14 


BiLSTM-BCRF 74.35 72.22 73.27 
(word+char*2) 


72.25 7173 71.99 


表 4 中 的 实验 所 使 用 的 模型 为 BiLSTM-BCRF 模型 ， 采 用 的 数据 集 为 20% 的 BC5CDR 数据 
集 。 其 中 ，word 表示 为 词 向 量 信 息 ， 维 度 设 置 为 100。char 表示 为 字符 向 量 ， 维 度 设 置 为 
50; “char*2”" 表 示 为 2 个 字符 向 量 矩 阵 拼 接 ，“+”" 表 示 拼 接 。 

为 探 完 词 向 量 与 字符 向 量 拼接 顺序 是 否 会 影响 模型 的 性 能 ， 本 文 做 了 以 下 实验 ， 实 验 结果 如 
表 4 所 示 : 在 模型 输入 层 采用 词 向 量 和 一 个 字符 向 量 矩 阵 拼 接 时 ， 将 它们 的 拼接 顺序 调换 ， 模 型 
F1 值 与 之 前 相 比 ， 稍 微 下 降 。 当 词 向 量 与 两 个 字符 向 量 矩 阵 拼 接 时 ， 将 词 向 量 放 至 两 个 字符 向 
量 和 矩阵 中 间 时 ， 模 型 的 精确 率 、 召 回 率 、F1 值 与 之 前 相 比 都 有 所 下 降 。 由 此 可 知 ， 词 向 量 与 字 
符 向 量 的 拼接 顺序 是 会 影响 模型 的 性 能 的 

表 5 词 向 量 拼接 字符 向 量 和 矩阵 的 个 数 对 模型 性 能 的 影响 

Table $ explores the impact of the number of word vector stitching character vector matrices on the performance of the 
model 


20%BC5CDR 数据 集 
Method 可 


BiLSTM-BCRF 74.35 72.22 73.27 
(word+char*2) 


word(200)+char*4 73.12 73.20 73.16 


word(300)+char*6 70.74 73.87 72.27 
word(50)+char 70.42 70.70 70.56 


(wordt+char*2)*2 73.48 71.37 72.41 


表 5 中 的 实验 所 使 用 的 模型 为 BiLSTM-BCRF 模型 ， 采 用 的 数据 集 为 20% 的 BC5CDR 数据 集 。 其 
中 ，word 表示 为 词 向 量 信 息 ， 维 度 设置 为 100。“word(200) ”表示 维度 为 200 的 词 向 量 ，char 
表示 为 字符 向 量 ， 维 度 设 置 为 50; “char*x3” 表 示 为 3 个 字符 向 量 和 矩阵 拼接 ，“+” 表 示 拼 接 。 

在 低 资源 场景 下 ， 模 型 受 标注 数据 量 少 的 限制 ， 通 过 在 词 向 量 后 拼接 字符 向 量 ， 可 以 提高 模 
型 处 理 罕见 词 的 能 力 ， 提 高 模型 的 识别 性 能 。 为 探究 拼接 字符 向 量 和 矩阵 数量 为 多 少时 ， 模 型 识别 
性 能 提升 的 最 多 ， 本 文 做 了 以 下 实验 ， 实 验 结果 如 表 5 所 示 : 首先 将 词 向 量 维度 设置 为 100 时 ， 


拼接 一 个 字符 向 量 矩 阵 、 两 个 字符 向 量 和 矩阵 、 三 个 字符 向 量 时 矩阵， 通过 实验 结果 对 比 ， 本 文 发 
现在 词 向 量 后 拼接 两 个 字符 向 量 和 矩阵 ， 模 型 识别 效果 最 好 。 然 后 将 词 向 量 维度 设置 为 
50、200、300 时 ， 后 拼接 不 同 数量 的 字符 向 量 和 矩阵 。 通 过 实验 结果 对 比 ， 本 文 发 现 将 词 向 量 维 
度 设 置 为 100， 拼 接 两 个 字符 向 量 和 矩阵， 模型 的 识别 性 能 提升 的 最 多 。 
4.4 消融 实验 

为 探究 伯 努 利 分 布 和 多 层 字符 信息 对 模型 性 能 的 影响 ,本 文 将 BiLSTM-CRF 模型 设置 为 基准 
模型 ， 首 先 将 伯 努 利 分 布 融入 到 基准 模型 的 损失 函数 中 ， 构 建 BiLSTM-BCRF(1) 模 型 。 然 后 在 
BiLSTM-CRF() 模 型 基础 上 融合 多 层 字 符 信 息 ， 构 建 BiLSTM-BCRF 模型 ， 以 上 模型 在 两 个 数据 
集 的 实验 结果 如 表 6 所 示 : 


表 6 消融 实验 结果 
(BiLSTM-CRF 模型 为 基准 模型 ，BiLSTM-BCRF(1) 模 型 表示 将 伯 努 利 分 布 融 入 到 BiLSTM-CRF 模型 损失 
函数 中 ) 


Table 6 ablation experimental results 
(the BiILSTM-CRF model is the benchmark model, and the BiILSTM-BCRF (1) model represents the integration of 
Bernoulli distribution into the loss function of the BILSTM-CRF model) 


20%CONLL2003 20%BC5CDR 
on | Re 


BiLSTM- 86.43 87.75 87.08 73.77 71.98 72.87 
BCREF(C) 


BiLSTM-BCRF 87.49 88.83 88.06 74.35 72.22 73.27 


表 6 所 示 的 消融 实验 结果 表明 ，BiLSTM-BCRF(1) 模 型 在 两 个 数据 集 上 取得 的 Fl 值 均 高 于 
BiLSTM-CRF 模型 ， 表 明 新 型 损失 函数 对 于 模型 的 性 能 具有 提升 的 作用 。 从 表 中 模型 BiLSTM- 
BCRF 在 两 个 数据 集 取 得 的 精确 率 、 召 回 率 、F1 值 可 以 看 出 ， 本 文 提出 的 BiLSTM-BCREF 模型 识 
别 效果 是 比较 好 的 。 


4.5 定性 分 析 
为 更 好 的 对 比 BiLSTM-BCREF 模型 与 BiLSTM-CRF 模型 在 命名 实体 识别 任务 上 的 差异 ， 本 文 
从 数据 集中 选取 两 个 实例 句子 : “0nly France and Britain backed Fischler “s 


proposal. ”和 “Rare Hendrix song draft sells foralmost $ 17000”， 人 工 标 注 、 
BiLSTM-CRF 模型 和 BiLSTM-BCRF 模型 的 标注 结果 如 表 7、 表 8 所 示 。 


表 7 模型 识别 实例 1 


Table 7 model identification example 1 


Onl | France | an | Britai | backed | Fischle ‘s | proposal 
y d n r 


| 人 I 标注 | 0 |BlC|0 [Bic | 0 |BpER [ol 0o | 0 


| BiLSTMCRFE | 0 |BLC 0 BC 0 | 0o oo | 0 
| BilSTWBCRF | 0 |Bioc|o0o|Bioc | 0 |BpER |o| 0o | 0 | 
表 8 模型 识别 实例 2 
Table 8 model identification example 2 


EN A 


| 人 J 标注 | 0 | BPER | 0 | 


| BiLSTMCRF [BPER| IPER | 0 | 0 | 0 [| 0 | 
ET 


在 表 7 中 可 以 看 到 该 句子 共有 三 个 实体 ， 原 来 的 BiLSTM-CRF 模型 只 实 别 出 了 两 个 实体 ， 本 


文 提出 的 BiLSTM-BCRF 模型 将 句 中 包含 的 三 个 实体 全 部 识别 出 来 。 表 8 中 ， 该 句子 只 有 一 个 人 
名 实体 ， 但 BiLSTM-CRF 模型 把 句子 中 前 两 个 单词 错误 地 识别 为 一 个 人 名 实体 ， 而 本 文 提出 的 
模型 能 将 句 中 人 名 实体 准确 地 识别 出 来 。 

5 总 结 
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针对 低 资 源 领域 标注 语 料 较 少 的 问题 ， 本 文 提出 了 一 种 低 资源 场景 下 命名 实体 识别 模型 
(BiLSTM-BCRF)。 该 模型 通过 在 损失 函数 中 融入 伯 努 利 分 布 ， 使 得 模型 参数 在 低 资源 场景 下 也 
能 得 到 较 好 拟 合 。 同 时 将 多 层 字符 特征 信息 融合 到 模型 中 ， 提 升 模型 处 理 罕 见 词 的 能 力 ， 使 得 模 
型 在 标注 数据 少量 时 也 能 拥有 较 好 的 识别 性 能 ， 能 更 好 的 适应 低 资源 命名 实体 识别 任务 。 但 该 模 
型 识别 专 有 名 词 的 性 能 还 需 继 续 提 升 ， 本 文 以 后 的 工作 会 专注 于 提高 模型 识别 专 有 名 词 的 能 力 ， 
同时 模型 的 知识 迁移 和 跨 领域 的 性 能 提升 也 是 本 文 以 后 的 研究 重点 。 
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